Apache kafka 工作原理介绍
原文:https://developer.ibm.com/zh/articles/os-cn-kafka/消息队列消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行–它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。...
2024-01-10apache-kafka 安装或设置
示例步骤1。安装Java 7或8第二步。在以下位置下载Apache Kafka:http://kafka.apache.org/downloads.html例如,我们将尝试下载Apache Kafka 0.10.0.0第三步。解压缩压缩文件。在Linux上:tar -xzf kafka_2.11-0.10.0.0.tgz在窗口上:右键单击->在此处提取第四步。启动Zookeepercd kafka_2.11-0.10.0.0Linux:bin/zookeeper-server-start.sh config...
2024-01-10Apache Spark中的矩阵乘法
我正在尝试使用Apache Spark和Java执行矩阵乘法。我有两个主要问题:如何创建可以表示Apache Spark中矩阵的RDD? 如何将两个这样的RDD相乘?回答:所有这些都取决于输入数据和维度,但总的来说,您需要的不是RDD的分布式数据结构之一org.apache.spark.mllib.linalg.distributed。目前,它提供了四种不同的实现Di...
2024-01-10转。pagecache与Kafka之间的事儿
前言关于Kafka的一个灵魂拷问:它为什么这么快? 或者说,为什么它能做到如此大的吞吐量和如此低的延迟?有很多文章已经对这个问题给出了回答,但本文只重点研究其中的一个方向,即对page cache的使用。先简单地认识一下Linux系统中的page cache(顺便也认识一下buffer cache)。page cache & buffer cache...
2024-01-10Apache Knox 网关概述
Apache Knox 网关是一种系统,可将 Apache™Hadoop ® 服务的覆盖范围扩展到 Hadoop 集群外的用户,而不会减少 Hadoop 安全性。Knox 还为访问群集数据和执行作业的用户简化了 Hadoop 安全性。Knox 与企业中使用的身份管理和 SSO 系统集成,并允许将这些系统的身份用于访问 Hadoop 集群。Knox 网关为多个 Hadoop 集群提...
2024-01-10Java,如何获取Apache Kafka中某个主题的消息数
我正在使用apache kafka进行消息传递。我已经用Java实现了生产者和消费者。我们如何获取主题中的消息数量?回答:从消费者的角度来看,想到此的唯一方法是实际消费消息并计数。Kafka代理公开了自启动以来收到的消息数量的JMX计数器,但是您不知道已经清除了其中的多少。在最常见的情况下,最好...
2024-01-10Apache Spark中的分层数据处理
我在Spark(v2.1.1)中有一个包含分层数据的3列(如下所示)的数据集。Apache Spark中的分层数据处理我的目标的目标是增量编号分配给基础上,父子层次的每一行。从图形上可以说,分层数据是一个树的集合。根据下表,我已经有基于'Global_ID'分组的行。现在我想以 的增量顺序生成'Value'列,但是基于 ...
2024-01-10在Apache Spark中读取多行JSON
我试图将JSON文件用作小型数据库。在DataFrame上创建模板表后,我使用SQL查询了该表并得到了异常。这是我的代码:val df = sqlCtx.read.json("/path/to/user.json")df.registerTempTable("user_tt")val info = sqlCtx.sql("SELECT name FROM user_tt")info.show()df.printSchema() 结果:root |-- _corrupt_record: string (nul...
2024-01-10Apache Spark计数记录每个组的空值
当我尝试计算每个组的记录数时,我发现该组具有空值但没有记录,但这是不正确的。Apache Spark计数记录每个组的空值输入数据帧:+--------+ | Name| +--------+ | Andrei| | Andrei| | null| | null| |Grigorii| +--------+ 代码:Dataset<Row> df = inputDf.groupBy("Name") .agg(functions.count("Name").as("Name_count")); 实际数...
2024-01-10如何从Java中的Apache POI库调用宏?
我有 :名为“ process”的宏,它为我的工作表完成所有处理工作。我希望使用Apache POI的Java代码调用此宏,以便它可以为我处理工作表。如何在Java的Apache POI中调用宏?我import org.apache.poi.ss.usermodel在Apache POI中使用。请提供示例代码。(我是Apache POI和Java的新手。)回答:我认为这是不...
2024-01-10带有Apache POI的Java中的运行时错误
我得到错误:java.lang.NoSuchMethodError: org.apache.xmlbeans.XmlOptions.setSaveAggressiveNamespaces()Lorg/apache/xmlbeans/XmlOptions;at org.apache.poi.POIXMLDocumentPart.<clinit>(POIXMLDocumentPart.java:56)从第56行开始:public static Workbook wb = new XSSFWorkbook();我...
2024-01-10Kafka之拦截器Interceptor
Kafka client版本0.10 ProducerInterceptor List-1public interface ProducerInterceptor<K, V> extends Configurable { public ProducerRecord<K, V> onSend(ProducerRecord<K, V> record); public void onAcknowledgement(RecordMetadata metadata, Exce...
2024-01-10Apache Kafka:生产者-Consume API没有在GCP上运行
我一直试图在Kafka集群上运行我的生产者和消费者api,但它不工作。Apache Kafka:生产者-Consume API没有在GCP上运行1)动物园管理员是在一个GCP VM实例运行2)卡夫卡正在另一个GCP VM实例运行步骤如下:步骤1)使用运行动物园管理员以下命令:bin/zookeeper-server-start.sh config/zookeeper.properties 个Zookeeper.propert...
2024-01-10使用Apache POI的Java程序让我感到奇怪例外
我有一些严重的困难让我的项目离开地面。我有以下代码:使用Apache POI的Java程序让我感到奇怪例外FileInputStream file = new FileInputStream(new File("src/retestchecker/test_sheet.xlsx")); //Get the workbook instance for XLS file XSSFWorkbook workbook = new XSSFWorkbook(file); //Get first sheet from ...
2024-01-10apachedruid实时加载kafka中的数据(一)
简介apache druid 是分布式列存储的 OLAP 框架。还是一个时间序列数据库。本篇文章主要是druid 在kafka 加载数据的配置。由于druid 升级情况太快,本人的环境还是在0.13,主要改动方面还是UI,新的版本在UI方面更适合新手入门。文章如有帮助,请关注微信公共号。 最终使用druid时,是0.9版本,当时在...
2024-01-10将文件添加到Apache设置(Mac OSX版)
我也想安装OpenEMR和这里的操作说明:将文件添加到Apache设置(Mac OSX版)当:http://www.open-emr.org/wiki/index.php/OpenEMR_3.1_OS_X_Macintosh_Installation我与理解在这里做什么挣扎我运行:sudo vi /etc/apache2/other/openemr.conf我得到一个空白文件。它接着补充:<Directory /Library/WebServer/Documents/openemr/documents> o...
2024-01-10Kafka--JAVA代码样例
一、原生API(一)生产者 生产者的发送可以分为异步发送、异步回调发送和同步发送。除了三种发送方式外,还可以进行批量发送,也可以在发送时对发送者进行拦截进行特殊处理。 1、异步发送 异步发送就是生产者将消息发送到分区器后,就不再管后续的流程(分区器是否发送到b...
2024-01-10微服务中的Kafka与Micronaut
今天,我们将通过Apache Kafka主题构建一些彼此异步通信的微服务。我们使用Micronaut框架,它为与Kafka集成提供专门的库。让我们简要介绍一下示例系统的体系结构。我们有四个微型服务:订单服务,行程服务,司机服务和乘客服务。这些应用程序的实现非常简单。它们都有内存存储,并连接到同一个Kafk...
2024-01-10【Java】Kafka 探险 - 架构简介
简介Kafka 是一种分布式的,基于发布 / 订阅的消息系统。最初被 LinkedIn 开发,并在 2011 年初开源,2012 年 10 月从 Apache 孵化器破壳而出,成为 Apache 的顶级项目。Kafka 最初被设计的目的是 LinkedIn 流量和运维数据分析。流量数据包含 PV (Page View) , UV (Unique Visitor) ,搜索数据,详情页数据等。在高并发场景...
2024-01-10怎样一个角色串联的列在Java的Apache的火花值
我想获得一个特定的列的值表示costs 作为怎样一个角色串联的列在Java的Apache的火花值spark.select(col("col1"), col("col2"), col("costs")) .groupBy("col1") .agg(sum(col("costs"))); 输出应该具有的附加列成本数据与$符号。回答:您需要使用和concat组合litspark.select(col("col1"), col("col2"), col("costs")) .groupBy(...
2024-01-10性能测试案例-JAVA + LR实现apache流媒体
1、JAVA部分 最近的一个项目,视频点播系统,使用apache实现的流媒体服务器。其实准确的说叫做伪流(HTTP Pseudo-Streaming),基本原理和概念自行了解吧。让我简单的描述就是仍...
2024-01-102018即将推出的Apache Spark 2.4都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的Apache Spark Meetup。即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对Apache Spark 2.4 的主要功能和增强功能进行了概述。新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作...
2024-01-10Apache Spark 2.0 在作业完成时却花费很长时间结束
现象大家在使用 Apache Spark 2.x 的时候可能会遇到这种现象:虽然我们的 Spark Jobs 已经全部完成了,但是我们的程序却还在执行。比如我们使用 Spark SQL 去执行一些 SQL,这个 SQL 在最后生成了大量的文件。然后我们可以看到,这个 SQL 所有的 Spark Jobs 其实已经运行完成了,但是这个查询语句还在运行...
2024-01-10java kafka 生产者消费者 高级API
Java中提供高级的API,相对于低级API(更小的粒度控制消费)使用起来非常方便。 pom: <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.0</version> </dependency>一、修改kafka server.porperties的ip是你kafk...
2024-01-10如何使用单个Spark上下文在Apache Spark中运行并发作业(动作)
它说,在Apache Spark文档中,“”。有人可以为以下示例代码解释如何实现此并发吗? SparkConf conf = new SparkConf().setAppName("Simple_App"); JavaSparkContext sc = new JavaSparkContext(conf); JavaRDD<String> file1 = sc.textFile("/path/to/test_doc1"); JavaRDD<String> file2 = sc.t...
2024-01-10